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® Verfahren zum Trainieren eines Modells fur die Mustererkennung, insbesondere eines 
Hidden-Markov-Modells, und Mustererkenner 

® Die Erfindung betrifft ein Verfahren zum Trainieren ei- 17 18 

nes Modells fur die Spracherkennung, insbesondere ei- 
nes Hidden-Markov-Model Is, bei dem a) ein Verschie- 
bungswert zwischen mindestens zwei zusammengeho- 
renden Trainingsmustem (1 1, 13) durch Korrelieren derart 
bestimmt wird, daS die Korrelation zwischen den Trai- 
ningsmustem maximal wird, und b) die Trainingsmuster 
(11, 13) mrttels des Verschtebungswertes derart zuetnan- 
der verschoben werden, da& einander entsprechende Be- 
reiche der Trainingsmuster bezQgltch eines gemetnsamen 
Bezugspunktes etwa die gleiche Lage aufweisen. 
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Beschreibung 

[0001] Die Erfindung betrifft cin Verfahren zum Trainieren cincs Modells fur die Mustererkennung gemafi Anspruch 1 
und einen Mustererkenner gemaB Anspruch 10. 
5 [0002] Mustererkenner werden auf vielen Gebielen eingesetzt: Spracherkennung, Bildverarbeitung, okologische und 
okonomische Prozesse. Insbesondere fur die Spracherkennung auf den Gebieten der Telekornmunikation, in Umge- 
bungssteuerungen (beispielsweise der Home-Automation) und Geratesteuerungen kornmen Mustererkenner auf der Ba- 
sis des Hidden-Markov-Modells oder von neuronalen Netzen zum Einsatz. 

[0003] Bei der automatischen Mustererkennung werden aus einem ein Muster reprasentierenden Signal Merkmalsvek- 
10 toren extrahierL Beispielsweise werden hierzu Abschnitte eines Sprachsignals jeweils mittels Fouriertransformation vom 
Zeit- in den Frequenzbereich trans formiert, so dafi die Merkmalsvektoren die spektralen Anteile der einzelnen Ab- 
schnitte reprasentieren. Fur ein ein Muster reprasentierendes Signal erhalt man so eine Abfolge von Merkmalsvektoren, 
die spektrale Anteile, Energieanteile, etc. des Signals reprasentieren. Die Vektoren geboren zu einem hochdimensionalen 
Merkmalsraum. 

is [0004] Bei einem Sprachsignal sind in einem Merkmalsraum einzelnen Phonemen bzw. Lauten bestimmte Raum-Be- 
reiche zugeordnet Anhand der zeitlichen Abfolge von Merkmalsvektoren eines Sprachsignals in dem hochdimensiona- 
len Merkmalsraum und der Lage einzelner Merkmalsvektoren in Bezug auf die den einzelnen Phonemen zugeordneten 
Raum-Bereiche ist es moglich, einen zu dem Sprachsignal passenden Text zu ermitteln oder aufgrund des erkannten 
Sprachsignals Steuervorgange auszufuhren. 

20 [0005] Aus der DE 197 08 183 Al ist ein Verfahren zur Spracherkennung mit Sprachmodellanrwssung an die Beson- 
derheiten eines speziellen Textes bekannL Hierbei werden aus einem Sprachsignal Testwerte abgeleitet und mit ein vor- 
gegebenes Vokabular bestimmenden Referenzwerten verglichen. Hieraus werden Bewertungswerte abgeleitet, die an 
Wortgrenzen mit Sprachmodellwerten verkniipft werden, welche von der Wahrscheinlichkeit abhangen, dass ein be- 
stimmtes Wort des Vokabulars in Abhangigkeit von wenigstens einem vorhergehenden Wort auftritt, Im Rahmen dieses 

25 Verfahrens werden sogenannte Unigramm- und M-Gramm-Basissprachmodellwerte sequentiell eingesetzt. 

[0006] Die Zuordnung einer Folge von Merkmalsvektoren zu einem bcstimmten Muster kann mittels eines Hidden- 
Markov-Modells (HMM) oder eines neuronalen Netzes erfolgen. 

[0007] Markov-Modelle sind aus der statistischen Signaltheorie bekannt und beschreiben mit einer besonders uber- 
sichtlichen Struktur staristische Prozesse dadurch, dafi anhand eines Zustandsubergangsgraphen die Ubergangswahr- 
30 scheinlichkeiten zwischen verschiedenen Zustanden eines Systems dargestellt werden. Im Bereich der automatischen 
Mustererkennung hat sich das Hidden-Markov-Modell zur Zuordnung von Merkmalsvektorfolgen im hochdimensiona- 
len Merkmalsraum zu einem bestimmten Muster bewahrt, das mit hochster Wahrscheinlichkeit dem in einem Signal ent- 
haltenen Muster entspricht. 

[0008] Bei einem Spracherkenner bildet das Hidden-Markov-Modell fur jedes Phonem oder Einzelwort einen Zu- 

35 standsgraphen mit einer den Phonemsegmenten entsprechenden Anzahl von Zustanden. Ubergangswahrscheinlichkeiten 
zwischen den verschiedenen Zustanden ermoglichen die Modellierung von Phonemsegmentfolgen mit unterschiedlichen 
Wahrscheinlichkeiten. Ausgehend von einem vorliegenden, ein Muster reprasentierenden Signal erhalt man durch Si- 
gnalvorverarbeitung jedoch nur den Weg durch den hochdimensionalen Merkmalsraum, nicht aber die Folge von Raum- 
Bereichen (entsprechend einer Folge von Phonemen bei einem Sprachsignal). 

40 [0009] Vor dem Finsarz eines Hidden-Markov-Modells zur Mustererkennung ist ein Trainieren erforderlich, urn iiber- 
haupt die Raum-Bereiche in dem hochdimensionalen Merkmalsraum zu erzeugen. Trainiert wird beispielsweise bei ei- 
nem Spracherkenner durch das Sprechen von Trainingsmustern, die bereits bekannt sind. Durch das Irainieren werden 
Obergangswahrscheinlichkeiten im Hidden-Markov-Modell eingestellt sowie die \ferteilung der Training smuster in ei- 
nem Segment modelliert, urn eine moglichst exakte Erkennung zu erzielen. Als Trainingsmuster werden entweder ein- 

45 zelne Worte oder gesprochene Satze verwendet. 

[0010] Aus der US 5,473,728 ist ein Verfahren zum Trainieren eines sogenannten homoscedastischen Hidden-Markov- 
Modells zur automatischen Spracherkennung bekannt, welches die Schritte der Bereits tellung einer aknstischen Sprach- 
einheiten enthaltenden Datenbasis, der Erzeugung des besagten Hidden-Markov-Modells aus den akustiscben Sprach- 
einheiten und das Laden dieses Modells in den Spracherkenner umfasst In einer vorteilhaften Auspragung dieses \fer- 

50 fahrens werden mehrere iterative Trainingsschritte ausgefuhrt, wobei jeweils eine Vorwaits-Zustandswahrscheinlichkeit 
fur einen Markov-Kettenzustand, eine Ruckwarts-Zustandswahrscheinhchkeit fur den Markov-Kettenzustand und eine 
Komponenten-Zustandswahrscheinlichkeit fur den Markov-Kettenzustand sowie eine Misch-Gauss-PDF-Komponente 
rekursiv fur einen gegebenen Messungsvektor, eine Trainingssequenz und eine Spracheinheit berechnet werden. Im Ab- 
schnitt "Background of the Invention" dieser Druckschrift wird auf eine Reihe von Veroffentlichungen zur Handhabung 

55 von Hidden-Markov-Modellen, speziell unter dem Gesichtspunkt ihres Einsatzes bei der Spracherkennung, hinge wiesen. 
[0011] Besonders wichtig fur die ErsteUung und das Irainieren eines Modells fur die Mustererkennung, insbesondere 
eines Hidden-Markov-Modells, ist die Segmentierung der verwendeten Trainingsmuster. Darunter versteht man die Un- 
terteilung in bestimmte Abschnitte, in denen die Signalparameter annahernd konstant bleiben, beispielsweise bei einem 
Sprachsignal als Trainingsmuster die Unterteilung in Abschnitte mit gleichem LautinhalL 

60 [0012] AUerdings sind nicht immer in alien Trainingsmustern alle Auspragungen eines Signals vorhanden. Beispiels- 
weise konnen Laute am Anfang oder Ende eines Wortes fehlen. Dies ist insbesondere dann kritisch, wenn zusammenge- 
horende Trainingsmuster, beispielsweise ein bestimmtes Wort, wahrend des Trainings mehrfach auftauchen. Geht man 
von den Mustergrenzen eines Trainingsmusters aus und wird innerhalb dieser Grenzen segmentiert, kann es vorkommen, 
daB Segmente, denen der gleiche Index aufgrund eines zusammecgehorenden Trainingsmusters zugeordnet ist, Bereiche 

65 unterschiedlichen Lautin halts reprasentieren. 

[0013] In Fig, 3 ist im oberen Diagramm 10 der zeitliche Verlauf eines ersten, das Wort "Sieben" (ausgesprochen als 
"Sieben") reprasentierenden Sprachsignals 11 dargestellt Im unteren Diagramm 12 ist der zeitliche Verlauf eines zwei- 
ten, ebenfalls das Wort "Sieben" (ausgesprochen allerdings als "Siebn") reprasentierenden Sprachsignals 13 abgebildeL 
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Die bell dargestellten Bereiche 14 und 16 entsprechen den akustisch ermittelten und vom Sprachsignal uberdeckten Be- 
reichen, welche die Wortgrenzen vorgeben. Die Bereiche unterscheiden sich erkennbar fur beide Sprachsignale. Dadurch 
fuhrt hier cine an den Wort- bzw. Mustergrenzen ausgerichtcte Segmentierung und anschlieBende Indiziemng dazu, daB 
in beiden Trainingsmustern Segmente mit gleichem Index einen unterschiedlichen Lautinhalt aufweisen. 
[0014] Bei der Segmentierung wind bisher von einer Initialsegmentierung ausgegangen, die im einfachsten Fall als 5 
aquidistant angesetzt wind. Konkret bedeutet dies, daB ein Trainingsmuster zur Segmentierung in aquidistante Abschnitte 
eingeteilt wind. Die einzelnen Grenzen von Segmenten konnen jedocb mittels Viterbi-Segmentierung entsprechend dem 
Verlauf eines Trainingsmusters im Hidden-Markov- Modell bei einer Erkennungsphase verschoben werden. 
[0015] Femer sind zum Trainieren sogenannte "geschnittene", d. h. zeitlich begrenzte Trainingsmuster erforderlich. In 
einem dem Training vorhergchenden Schritt werden daher fur jedes einzelne Trainingsmuster sogenannte Mustergrenzen 10 
bestimmt (siehe die Bereiche 14 und 15 in Fig. 3). Dies bedeutet, daB das Trainingsmuster zeitlich begrenzt oder anders 
ausgedriickt isoliert sein muB, wenn die Ermittlung der Mustergrenzen automatisiert werden soil Liegt jedoch als Trai- 
ningsmuster cin kontinuierliches Signal vor, ist eine Automatisierung der Ermittlung der Mustergrenzen so gut wie nicht 
moglich. 

[0016] Der voriiegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zum Trainieren eines Modelis fur 15 
die Mustererkennung, insbesondere eines Hidden-Markov-Modells, und einen Mustererkenner vorzuschlagen, die cine 
im Vergleich zu einer "starren" Initialsegmentierung verbesserte Segmentierung ennoglichen. 

[0017] Diese Aufgabe wird durch ein Verfahren mit den Merkmalen von Anspruch 1 und durch einen Mustererkenner 
mit den Merkmalen von Anspruch 10 gelosL Bevorzugte Ausgestaltungen des \ferfahrens und des Mustererkenners er- 
geben sich aus den jeweiligen abhangigen Anspruchen. 20 
[0018] Die Erfindung schlieBt den grundlegenden Gedanken ein, ein Trainieren eines Modelis fur die Mustererken- 
nung mittels mehrerer gleichartiger Trainingsmuster, insbesondere eines Hidden-Markov-Modells, vorerst ohne expli- 
zite Bestimmung von Mustergrenzen zu ennoglichen, indem ein \ferschiebungswert zwischen mindestens zwei zusam- 
mengehdrenden Trainingsmustern durch Korrelieren der Trainingsmuster bestimmt wird. Der Verschiebungswert gibt 
an, wie ein Trainingsmuster in Bezug auf ein anderes Trainingsmuster verschoben werden muB, damit Bereiche mit glei- 25 
chem Inhalt in den Trainingsmustern an gleicher Stelle liegen. Hierdurch ist keine explizite Bestimmung von Muster- 
grenzen erforderlich. 

[0019] VerfahrensgemaB wird a) ein Verschiebungswert zwischen mindestens zwei zusammengehdrenden Trainings- 
mustern durch Korrelieren derail bestimmt, daB die Korrelation zwischen den Trainingsmustern maximal win! Dann 
werden b) die Trainingsmuster mittels des Verschiebungswertes derart zueinander verschoben, daB einander entspre- 30 
chende Bereiche der Trainingsmuster bezuglich eines gemeinsamen Bezugspunktes etwa die gleiche Lage aufweisen. 
Einzelne Grenzen fur die Trainingsmuster sind hierzu nicht notwendig. 

[0020] Vorzugsweise kann das Korrelieren iterativ uber mehrere Durchlaufe fur die Trainingsmuster durchgefuhrt wer- 
den, wodurch der Verschiebungswert besonders exakt ermittelt wird. Dies ist fur eine besonders hohe Erkennungsrate 
wichtig, da hierdurch mit hoher Wahrscheinlichkeit Segmenten im Trainingsmuster, die den gleichen Inhalt aufweisen, 35 
auch derselbe Index zugeordnet wird. In einer konkreten Ausfuhrungsform werden die zueinander verschobenen Matri- 
zen von zwei Trainingsmustern addiert und bilden somit eine Mittelwertmatrix. Die Verschiebung aller weiteren Trai- 
ningsmuster wird durch Korrelation mit dfieser Mittelwertmatrix bestimmt, wobei die neuerlich korrelierten Trainings- 
muster wiederum verschoben zur Mittelwertmatrix dazu addiert werden. Dieser \forgang kann iterativ mehrrnals uber 
alle Trainingsmuster erfolgen. 40 
[0021] Vorzugsweise werden in einem Trainingsmuster Bereiche, die im Vergleich mit anderen zusammengehdrenden 
Trainingsmustern fehlen, durch vorgegebene Fullbereiche erganzt. Diese vorgegebenen FuUbereiche konnen beispiels- 
weise bei einem Sprachsignal lautfreie Bereiche (silence) sein. Insbesondere wird dies bei Trainingsmustern vorgenom- 
men, bei denen beispielsweisc Laute am An fang oder am Ende eines Wortes fehlen. 

[0022] In einer bevorzugten Ausgestaltung des \ferfahrens werden anhand der in Schritt b) vorgenommenen Verse hie- 45 
bung Mustergrenzen bestimmt, die fur alle zusammengehdrenden Trainingsmuster gelten. Erfolgt danach eine Segmen- 
tierung, die sich auf diese Mustergrenzen bezieht, werden verschiedene, aber zusammengehorende Trainingsmuster der- 
art segmentiert, daB Bereiche mit gleichem Inhalt in den verschiedenen Trainingsmustern in den gleichen Segmenten lie- 
gen. 

[0023] Ein zwischen den Mustergrenzen liegender Bereich der Trainingsmuster kann mittels eines Zentroidenverfah- SO 
rens segmentiert werden. GemaB dem Zennxridenverfahren konnen innerhalb vorgegebener Beschrankungen alle mog li- 
chen Segmentierungen berechnet werden. Aus den berechneten Segmentierungen wird dann eine Segmentierung nach 
einem Distanzkriterium zum Zentroideo jedes Segments ausgewahlt. 

[0024] Das Auswahlkriterium kann derart ausgebildet sein, daB die Segmentierung ausgewahlt wird, bei der die 
Surame der Quadrate der Distanzen von Merkmalsvektoren zu dem zugeordneten Zentroiden in jedem Segment uber das 55 
gesamte Trainingsmuster minimal wird. Hierdurch erhalt man eine optimale Segmentierung. 

[0025] SchlieBlich kann die Segmentierung entweder direkt zum Erstellen eines Modelis zur Mustererkennung, insbe- 
sondere eines Hidden-Markov-Modells, oder als Initialsegmentierung erfolgen. Anhand der Initialsegmentierung kann 
die Verschiebung von Segmentgrenzen einzelner Trainingsmuster, insbesondere mittels Viterbi-Segmentierung, vorge- 
nommen werden. 60 
[0026] Vorzugsweise wird das Verfahren bei der Spracherkennung eingesetzt 
[0027] Ein Mustererkenner zur Durchfuhrung des erfindungsgemaBen Vbrfahrens weist 

- Vorverarbeitungsmittel zum \forverarbeiten eines ein Trainingsmuster reprasentierendes Signal, 

- Berechnungsnrittel zum Erstellen von Matrizen mit Merkmalsvektoren fur das Trainingsmuster, 65 

- Korrelationsmittel zum Korrelieren von Matrizen, die zusammengehorende Trainingsmuster reprasentieren, 

- Auswertemittel zum Ermitteln eines Verschiebungswertes, und 

- Sortiermittel zum Umsortieren von Matrizen abhangig von dem ermittelten Verschiebungswert auf. 
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[0028] Ferner konnen Additionsmittel vorgesehen sein, welche die Matrizen nach einem Umsortieren addieren. 
[0029] Weitere Vorteile und Anwendungsmoglichkeiten der Erfindung ergeben sich aus der nachfolgenden Beschrci- 
bung eines Ausfuhrungsbeispiels des erfindungsgemaBen \erfahrens in Verbindung mit den Zeichnungen. In diesen zei- 
5 gen 

[0030] Fig. 1 die in Fig. 3 dargestellten Trainingsmuster nach einer Verschiebung entsprechend einem mit dem erfin- 
dungsgemaBen Verfahren ennittelten Verschiebungswert, 

[0031] Fig. 2 eine Segmentierung mit neun Segmenten der in Fig. 1 dargestellten Trainingsmuster, und 
[0032] Fig. 3 ein Beispiel von zwei zusammengehorenden Trainingsmustem, die zueinander verschoben sind 

10 [0033] Zur Beschreibung von Fig. 3 wird auf die Beschreibungseinleitung verwiesen. 

[0034] Ein Trainingsmuster fur einen Spracherkenner wird durch eine Matrix dargestellt, deren Spalten Merkmalsvck- 
toren mit aufeinanderfolgenden Zeitindizes entsprecben. Hierbei ist die Zeit in sogenannte Frames als kleinste Zeitein- 
heit unterteilt. Ein Frame kann beispielsweise eine bestimmte Anzahl von digitalisierten Abtastwerten eines analogcn Si- 
gnals sein, welches das Trainingsmuster reprasentiert Jeder Zeitindex entspricht einem Vielfachen einer Framelange. 

15 [0035] Die Zeilen der Matrix stellen Merkmale dar, welche durch die Vorverarbeitung des Signals gewahlt wurden. Als 
Beispiele seinen hier nur spektrale Inhalte, Energiewerte, etc. genannt 

[0036] Im folgenden wird mit i ein Frame-Index, mit j ein Segment-Index und mit k eine Merkmals-Komponente be- 
zeichnet 

[0037] Durch Korrelieren zweier zusammengehorender Trainingsmuster, die beispielsweise ein bestimmtes Wart in ei- 
20 nem Sprachsignal reprasentieren, wird ein Zeitverschiebungswert bestimmL Der Zeitverschiebungsweit gibt die zeitli- 
che Verschiebung der Trainingsmuster, bezogen auf einen gemeinsamen Bezugspunkt der beiden Trainingsmuster, an. Er 
wird durch das Korrelieren derart berechnet, daB die Korrelation maximal wird. Sind mit f und g zwei Matrizen bezeich- 
net, die jeweils ein Trainingsmuster reprasentieren, die beide zusammengehoren, und bedeutet m die Anzahl der Merk- 
malsvektoren pro AuBerung, so ergibt sich der Zeitverschiebungswert nach der folgenden Gleichung: 



25 



30 



m-1 k 

/+x)modm 



1=0 k 

mit 

x = arg max (cf^x)} 

35 [0038] Konkret gibt der Zeitverschiebungswert x hier an, um wieviele Frames ein Trainingsmuster bezuglich des an- 
deren Trai ningsmusters verschoben werden muB, so daB entsprechende Bcrciche der beiden Muster "zeitlich zur Dek- 
kung kmunen''. Beginnt beispielsweise eine AuBerung in einem ersten Trainingsmuster mit dem Merkmalsvektor 0 (= 
erste Spalte der entsprechenden Matrix) und ergibt sich als Verschiebungswert eines zwei ten Trainingsmusters bezuglich 
des ersten Trai ningsmusters 10, so heiBt das, daB die AuBerung im zwei ten Trainingsmuster mit dem Merkmalsvektor 10 

40 entsprechend der elften Spalte der Matrix beginnt Um Merkmalsvektoren, die zu einander entsprechenden Bereichen der 
Trainingsmuster gehoren, zur "Deckling" zu bringen, konnen die Spalten der zweiten Matrix jeweils um zehn "Platze" 
verschoben werden. 

[0039] Die ^Correlation kann iterativ uber mehrere Durchlaufe durchgefuhrt werden, um einen exakten Zeitverschie- 
bungswert zu erhalten. 

45 [0040] Vorerst muB der Bereich vor und hinter jedem Trainingsmuster nicht weggeschnitten werden. Mustergrenzen 
sind daher nicht norwendig. 

[0041] In Fig. 1 sind die in Fig. 3 zeitlich verschobenen Trainingsmuster 11 und 13 in dem oberen und unterem Dia- 
gramm 10 bzw. 12 nach einer Zeitverschiebung des zweiten Train ingsmusters 13 gemaB dem vorgenannten Verfahren 
dargestellt. Die einander entsprechenden Bereiche der beiden Trainingsmuster 11 und 13 liegen nun zeitlich an gleichen 
50 Positionen. Die durch die hellen Bereiche dargestellten Bereiche 14 und 16 der beiden Trainingsmuster U und 13 sind 
mit ihren Wortgrenzen nun aneinander angepaBt 

[0042] Um einen Mittelwert mehrerer Trainingsmuster zu erhalten, werden nach der zeitlichen Verschiebung die Trai- 
ningsmuster addiert, d. h. die beiden die Trainingsmuster reprasentierenden Matrizen f und g werden zu einer neuen Ma- 
trix h addiert Bin drittes Trainingsmuster i, das ebenf alls zu den beiden Trainingsmustem gehort, kann anschlieBend mit 
55 dem oben erlauterten Verfahren zeitlich in Bezug auf die Matrix h entsprechend dem kumulierten Trainingsmuster "kor- 
rigiert und wiederum zur Matrix h addiert werden. Das "Korrigieren" umfaBt das Korrelieren der Matrizen h und i und 
Ermitteln des Zeitverschiebungswertes x sowie das Umordnen der Spalten der Matrix i mit dem Zeitverschiebungswert 
x. Insgesamt erhalt man so einen Mittelwert (oder genauer gesagt eine Mitteiwert-Matrix) von mehreren zusammenge- 
horenden Trainingsmustem. 

60 [0043] Mit dem Mittelwert uber mehrere Trainingsmuster konnen nun gemeinsame Wortgrenzen bestimmt werden, die 
fur alle zusammengehorenden Trainingsmuster gelten. Dies ist bereits in Fig. 1 dargestellt: Die durch die hellen Bereiche 
14 und 16 dargestellten Wortgrenzen sind aneinander angepaBt. Oder anders ausgedriickt: Die Wortgrenzen werden 
durch das Korrelieren von Trainingsmustem und anschlieBendes \ferschieben oder Aneinander-Ausrichten der Trai- 
ningsmuster insgesamt aneinander angepaBt Die so ennittelten und alien Trainingsmustem gemeinsamen Wortgrenzen 

65 entsprechen den auBersten Wortgrenzen aller korrelierten und verschobenen Trainingsmuster. Hierdurch fiihrt eine an- 
schlieBende Segmentierung der Trainingsmuster dazu, daB in gleichen Segmenten verse hiedener Trainingsmuster je- 
weils Bereiche mit gleichem Lautinhalt liegen. 

[0044] In einzelnen Trainingsmustem fehlende Laute werden hierbei durch Bereiche ersetzt, die lautmaBig " Stille" ent- 
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sprechen (sogenannte "Silence w -Bereiche). 

[0045] Innerhalb der gemeinsamen Wortgrenzen kann nun eine Segmentierung durchgefuhrt werden. Die Segmentie- 
rung basicrt auf cincm Zentroidenvcrfahren. Gemafi dem Zcntroidenverfahren werden innerhalb vorgegebener Be- 
schrankungen alle moglichen Segmentierungen berechnet und daraus die beste nach dem Distanzkriterium zum Zentroi- 
den ausgewahlt 

[0046] Es seien ft ein Merkmalsvektor der Mittelwertmatrix h mit Frame-Index i und uj, v,- Frame-Indices der Segment- 
grenzen. Der Zentroid zj ist dann der Mittelwertsvektor eines Segments j: 



v y -l 



v.. - u 



[0047] Die Segmentierung ist optimal, wenn die Distanzsumme der Merkmalsvektoren zu ihrem Zcntroiden im Seg- 
ment tiber das gesamte Trainingsmuster minimal wird. 

[0048] Als Beschrankungen seien folgende Werte angenommen: 15 
n mm minimale Anzahl Merkmalsvektoren pro Segment, 
nmax maximale Anzahl Merkmalsvektoren pro Segment, 
N Anzahl Segmente, 

L Anzahl Merkmalsvektoren pro Muster (ist fur alle Muster gleich. 

[0049] Mit der folgenden Gleichung werden die Distanzsummen der Merkmalsvektoren zu ihrem Zentroiden uber alle 20 
moglichen Segmentierungen berechnet: 

j-l i=*j 25 

[0050] Die Segmentgrenzen (u,-, Vj) werden innerhalb der obigen Beschrankungen nach den folgenden Kriterien van- 
iert: 

(ii > ,v y ) = ai^min{D(M > ,v > )} mit ZVj-tij <>n m 30 
und £(v y -«,) = £ 



1. Es miissen nicht die Grenzen jedes einzelnen Trainingsmusters bestirnmt werden. Statt dessen werden nur die 
Grenzen der Trainingsmuster nach dem Korrelieren und Verschieben bestirnmt; diese Grenzen konnen dann auf alle 
zusammengehorenden Trainingsmuster angewendet werden. 

2. Entsprechende Segmente verschiedener Trainingsmuster reprasentieren entsprechende Signalbereiche. 
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[0051] Hierbei werden alle moglichen Kombinationen durchgerechnet, was zum globalen Optimum fuhrt Die so er- 
mittelte Segmentierung kann direkt zum Erstellen eines Hidden-Markov-Modells herangezogen werden oder als Initial- 
segmentierung fur die Verschiebung der Segmentgrenzen der einzelnen Trainingsmuster beispielsweise mittels Viterbi- 
Segmentierung wahrend des Trainings dienen. 

[0052] In Fig. 2 ist eine Segmentierung der Trainingsmuster aus Fig, 1 nach dem Zcntroidenverfahren dargestellL Die 40 
beiden Trainingsmuster wurden, ausgehend von den Mustergrenzen, in neun Segmente eingeteilL Jedes Segment weist 
Bereiche der beiden Trainingsmuster auf, die den gleichen Lautinhalt umfassen. Die Segmentgrenzen sind mittels ge- 
punkteter Linien in dem oberen und unteren Diagram m 10 und 12 dargestellt. Das siebte Segment weist beispielsweise 
die Segmentgrenzen 17 und 18 auf. Erkennbar sind die einzelnen Segmente unterschiedlich breit, d h. die Segmentie- 
rung ist nicht aquidistant Dies ergibt sich aufgrund des Zentroidenverfahrens. 45 
[0053] Im ubrigen sei noch eimnal angemerkt, daB das erfindungsgemaBe Verf ahren und der Mustererkenner nicht auf 
das Trainieren von Hidden-Markov-Modellen beschrankt, sondem prinzipiell bei jedem Mustererkennungsverfahren 
vorteilhaft anwendbar sind, bei denen eine Segmentierung von Trainingsmustem erforderlich ist 
[0054] Zusammenfassend ergeben sich durch die Erfindung im wesentlichen zwei \forteile: 



50 



55 



Patentanspruche 

1. Verfahren zum Trainieren eines Modells fur die Mustererkennung mittels mehrerer gleichartiger Trainingsmu- 
ster, insbesondere eines Hidden-Markov-Modells, bei dem 60 

a) ein die Verschiebung zwischen mindestens zwei zusammengehorenden Trainingsmustem (11, 13) darstel- 
lender Verschiebungswert durch Konelieren der zwei Trainingsmuster (U, 13) derart bestirnmt wird, daB die 
Korrelation maximal wird, und 

b) die Trainingsmuster (11, 13) mittels des Verschiebungswertes derart zueinander verschoben werden, daB 
einander entsprechende Bereiche der Trainingsmuster beziiglich eines gemeinsamen Bezugspunktes etwa die 65 
gleiche Lage aufweisen. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB das Korrelieren iterativ iiber mehrere Durchlaufe fur 
die Trainingsmuster (11, 13) durchgefuhrt wird 
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3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daB in einem Trainingsmuster (13) im Vergleich mit 
anderen zusammengehorenden Trainingsmustem (11) fehlende Beieichc duich vorgegebene Fullbereiche erganzt 
werden. 

4. Verfahren nach einem der vorhergehenden Anspruche, dadurch gekennzeichnet, daB anhand der in Schritt b) 
vorgenommenen Verschiebung Mustergrenzen (14, 16) bestimmt werden, die fur alle zusammengehorenden Trai- 
ningsmuster (11, 13) gelten. 

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daB ein zwischen den Mustergrenzen (14, 16) liegender 
Bereich der Trainingsmuster mittels eines Zentroidenverfahrens segmentiert wird. 

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daB innerhalb vorgegebener Beschrankungen alle mogli- 
chen Segmentierungcn berechnct werden und cine Segmentierung daraus nach einem Distanzkriterium zum Zen- 
troiden jedes Segments ausgewahlt wird. 

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daB die Segmentierung ausgewahlt wird, bed der die 
S uinmc der Quadrate der Distanzen von Merkmalsvcktoren zu dem zugeordneten Zentroiden in jedem Segment 
iiber das gesamte Trainingsmuster minimal wird. 

8. Verfahren nach einem der vorhergehenden Anspruche, dadurch gekennzeichnet, daB die Segmentierung entwe- 
der direkt zum Erstellen eines Modells zur Mustererkennung, insbesondere eines Hidden-Markov-Modells, oder als 
Initialsegmentierung fur die Verschiebung von Segmentgrenzen (17, 18) einzelner Trainingsmuster, insbesondere 
mittels Viterbi-Segmentierung, dient 

9. Verfahren nach einem der vorhergehenden Anspruche, dadurch gekennzeichnet, daB die Mustererkennung eine 
Spracberkennung ist 

10. Mustererkenner zur Durchfiihrung des Verfahrens nach einem der vorhergehenden Anspruche, mit 

- Vorverarbeimngsmitteln zum Vorverarbeiten eines ein lYainingsmuster reprasentierendes Signal, 

- Berechnungsmitteln zum Erstellen von Matrizen mit Merkmalsvektoren fur das Trainingsmuster, 

- Korrelationsmitteln zum Korrelieren von Matrizen, die zusammengehdrende Trainingsmuster reprasentie- 
ren, 

- Auswertemitteln zum Ermittcln eines Verschiebungs wertes, und 

- Sortiermitteln zum Umsortieren von Matrizen abhangig von dem ermittelten Vbrschiebungswcrt. 

11. Mustererkenner nach Anspruch 10, dadurch gekennzeichnet, daB Additionsmittel vorgesehen sind, welche die 
Matrizen nach einem Umsortieren addieren. 

12. Mustererkenner nach Anspruch 10 oder 11, dadurch gekennzeichnet, daB er ein Spracherkenner ist 
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